[スポンサーリンク]

一般的な話題

果たして作ったモデルはどのくらいよいのだろうか【化学徒の機械学習】

[スポンサーリンク]

hodaです。「ゼロから学ぶ機械学習」からだいぶ時間がたってしまいましたが、今回の記事では前回取り上げることのできなかったモデルの精度評価について取り上げたいと思います。今回は機械学習のうちの教師あり学習の話です。(教師あり学習???という方は前回の記事をご覧ください。)

『モデル』とは?

なんとなく『モデル』という言葉を使ってきましたが、ここでモデルとは何を指すのか確認したいと思います。

モデルと各変数との関係1

関数y = f(x)のように入力データxを関数に入れて出力yを得る、この関数y = f(x)に当たるものがモデルになります2。xに入る数字は数字1つというよりは行列みたいなイメージです。yが離散的である場合は出力変数を『ラベル』と呼ぶこともあります3

性能指標

性能指標はモデルを評価する際に使います。分類と回帰のときで使われる指標は異なります。

分類のとき

分類では複数のクラスへ正しく分類することを目的としています。出力yが離散であるときに用います。
犬と猫の分類や、特定の機能を持つか持たないか(activeとinactive)など、2つのクラスに分けることが多いでしょう。まずは2つのクラスに分類するモデルの評価基準について記したいと思います。

予測はポジティブで、実際もポジティブに分類されることを真陽性(True Positive)、
予測はポジティブで、実際はネガティブ分類されることを偽陽性(False Positive)、
予測はネガティブで、実際はポジティブに分類されることを偽陰性(False Negative)、
予測はネガティブで、実際もネガティブに分類されることを真陰性(True Negative)

の4つに分けることができます4

これは混同行列(Confusion matrix)と呼ばれます。

混同行列はモデルの性能評価に優れていますが、他のモデルと比較となると単純には比較しづらいです。そこで性能を具体的な数値として出力してくれる4つの指標を今回紹介します。

正解率 (Accuracy)…これが高いほど、クラスを正しく分類できていることを表します4

分類の性能指標はクラスが正しく分類されているかを表す正解率(Accuracy)を用いることもありますが、正解率だけ確認してモデルの精度を判断することはおすすめしません。

例えば犬と猫の写真100枚を見分けようとしようとして、100枚中92枚が犬の写真だった場合の正解率(Accuracy)を考えましょう。この場合100枚すべてを犬と予測したモデルでも正解率は92 %になります。高い正解率から良いモデルのように感じるかもしれませんが、一般的に同じ出力しかしないモデルは良いモデルとは言いがたいです。上記の例のように用意したデータセットのクラスに元々偏りがあることは少なくないため、モデルの性能評価は正解率以外からも判断する必要があります。

適合率 (Precision)…予測結果のうちの正解した割合を表します5

再現率 (Recall)…正解した予測結果が実際の正解のうちの割合を表します5

F値 (F1, F-measure)…複数の呼び方があります。適合率と再現率にはトレードオフの関係があるので、適合率と再現率のバランスの良さを見る指標です。これが高いと適合率と再現率に大きな偏りがなく高いことを表します。

 

ここでは詳しく紹介しませんが、他にもROC曲線やAUCなどの評価指標があります。

回帰のとき

回帰では、実測値と同じ数値に近くなるような出力yを目指します。出力yが連続であるときに用います。

平均二乗誤差 (Root Mean Square Error, RMSE)…誤差なので、小さいほどよいです。

平均絶対誤差(Mean Absolute Error, MAE)…RMSEと同様に誤差なので、小さいほど良いです。

決定係数(R2) …Excelでも近似曲線を設定すれば出てくる指標です。データが対象となる曲線からどの程度離れているかを表します。1に近いほど良い性能を、0に近いほどその性能は良くないことを示します。

回帰の性能指標評価では主にRMSE(平均二乗誤差)が使われ、外れ値が多い場合などはMAE(平均絶対誤差)が良いとされています6。これはRMSEの場合、1点だけでも大きな外れ値が存在すると誤差を二乗しているために全体の評価が著しく下がってしまうためです7

多クラス分類の場合

さきほどの分類の性能指標では2クラスに分類するときの話でした。少し考えると、分類するときはいつも2クラスなわけではないはずです。
2クラス以上に分類する多クラス分類(Multiclass Classification)ではどのような評価指標を用いれば良いのでしょうか。

多クラス分類の場合はクラス全体の平均の取り方がマイクロ平均マクロ平均の2種類あります8, 9

マイクロ平均Micro-average)…すべてのクラスの結果を重みづけなくフラットに評価します。クラスを超えて全体のパフォーマンスを知ることができます8

マクロ平均Macro-average)…特定のクラスのデータが少ないなどクラスごとにデータの偏りがある場合にデータの偏りによる影響を考慮したいときに用いると良いでしょう8

混同行列です。それぞれのクラスの真陽性、偽陽性をTP1、FP1というように表しています。TP1は実際も予測もクラス1に分類されているもの、FP1は予測ではクラス1だが実際はクラス1ではないものを表しています。

適合率のマイクロ平均から行きたいと思います。
混同行列から適合率のマイクロ平均は式で表すと以下のようになります。

次は適合率のマクロ平均を考えたいと思います。
各クラスに対して適合率を考えるため3つの混同行列を作り、それぞれの適合率を考えます。
例えば、クラス1に注目して、クラス1かクラス1ではないかというよう分類します。

他のクラスに足しても同様に計算します。

それぞれの適合率から適合率のマクロ平均の式は以下のようになります。

さらに拡張することにより、より多くのクラスを含む多クラス分類においても評価を行うことができます10

終わりに

今回取り上げたモデルの性能指標は化学系・材料系における機械学習だけでなく、機械学習全般に当てはまる話でした。モデルの性能評価にどのような指標が使われているのか注目してみると面白いかもしれません。

参考文献

全体の参考も含む

  1. 金子弘昌 著, Pythonで気軽に化学・化学工学, p. 147, 丸善出版, 2021
  2. 大曽根圭輔, 関喜史, 米田武 著, 現場で使える!Python機械学習入門, pp. 138-142, 翔泳社, 2019
  3. 大曽根圭輔, 関喜史, 米田武 著, 現場で使える!Python機械学習入門, p. 130, 翔泳社, 2019
  4. 金子弘昌 著, 化学のためのPythonによるデータ解析・機械学習入門, pp. 81-82, オーム社, 2019
  5. 島田達郎, 越水直人, 早川敦士, 山田育矢 著, Pythonによるはじめての機械学習プログラミング, p. 159, 技術評論社, 2019
  6. 下田倫大 監訳, scikit-learnとTensorFlowによる実践機械学習, pp. 37–39, オライリージャパン, 2018
  7. 堅田洋資, 菊田遥平, 谷田和章, 森本哲也 著, フリーライブラリで学ぶ機械学習入門, pp.37-38, 秀和システム, 2017
  8. 有賀康顕, 中山心太, 西林孝 著, 仕事で始める機械学習, pp. 65–75, オライリージャパン, 2018
  9. 中田秀基 訳, Pythonではじめる機械学習, pp. 292-295, オライリージャパン, 2017
  10. 福島真太朗 監訳, [第3版]Python機械学習プログラミング達人データサイエンティストによる理論と実践, p. 191, インプレス, 2020

式など全体の参考

11. 金子弘昌 著, 化学のためのPythonによるデータ解析・機械学習入門, pp. 55-57, オーム社, 2019

12. 下田倫大 監訳, scikit-learnとTensorFlowによる実践機械学習, pp. 86-89, オライリージャパン, 2018

関連リンク

ゼロから学ぶ機械学習【化学徒の機械学習】

化学のためのPythonによるデータ解析・機械学習入門(書籍レビュー)

関連書籍

化学のための Pythonによるデータ解析・機械学習入門

化学のための Pythonによるデータ解析・機械学習入門

弘昌, 金子
¥4,660(as of 10/17 21:55)
Amazon product information
scikit-learnとTensorFlowによる実践機械学習

scikit-learnとTensorFlowによる実践機械学習

Aurélien Géron
¥4,900(as of 10/18 11:39)
Amazon product information
仕事ではじめる機械学習

仕事ではじめる機械学習

有賀 康顕, 中山 心太, 西林 孝
¥2,319(as of 10/18 01:22)
Amazon product information

hoda

投稿者の記事一覧

大学院生です。ケモインフォマティクス→触媒

関連記事

  1. アレ?アレノン使えばノンラセミ化?!
  2. 酵素触媒によるアルケンのアンチマルコフニコフ酸化
  3. オルガネラ選択的な薬物送達法:①細胞膜・核・ミトコンドリアへの送…
  4. (+)-ミンフィエンシンの短工程不斉全合成
  5. クオラムセンシング阻害活性を有する新規アゾキシアルケン化合物の発…
  6. 結晶データの登録・検索サービス(Access Structure…
  7. 続・名刺を作ろう―ブロガー向け格安サービス活用のススメ
  8. 2017年ケムステ人気記事ランキング

注目情報

ピックアップ記事

  1. エステルからエーテルへの水素化脱酸素反応を促進する高活性固体触媒の開発
  2. 2016 SciFinder Future Leadersプログラム参加のススメ
  3. 柔軟な姿勢が成功を引き寄せた50代技術者の初転職。現職と同等の待遇を維持した確かなサポート
  4. マツタケオール mushroom alcohol
  5. 大学院から始めるストレスマネジメント【アメリカで Ph.D. を取る –オリエンテーションの巻 その 1–】
  6. 化学で何がわかるかーあなたの化学、西暦何年レベル?ー
  7. ヘテロベンザイン
  8. 【5月開催】第八回 マツモトファインケミカル技術セミナー 有機金属化合物「オルガチックス」の密着性向上剤としての利用 -プライマーとしての利用-
  9. カーボンナノリング合成に成功!
  10. 科学論文を出版するエルゼビアとの購読契約を完全に打ち切ったとカリフォルニア大学が発表

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2021年6月
 123456
78910111213
14151617181920
21222324252627
282930  

注目情報

最新記事

ミケーレ・パリネロ Michele Parrinello

ミケーレ・パリネロ (Michele Parrinello 1945年9月7日 メッシーナ生まれ) …

侯召民教授の講演を聴講してみた

bergです。この度は2024年10月5日(土)に慶応義塾大学 矢上キャンパス(理工学部)にて開催さ…

【10月開催】 【第二期 マツモトファインケミカル技術セミナー開催】 題目:有機金属化合物 オルガチックスを用いたゾルゲル法とプロセス制御ノウハウ(2)

■セミナー概要当社ではチタン、ジルコニウム、アルミニウム、ケイ素等の有機金属化合物を“オルガチッ…

日本プロセス化学会2024ウインターシンポジウム

有機合成化学を基盤に分析化学や化学工学なども好きな学生さん、プロセス化学を知る絶好の…

2024年ノーベル化学賞は、「タンパク質の計算による設計・構造予測」へ

2024年10月9日、スウェーデン王立科学アカデミーは、2024年のノーベル化学賞を発表しました。今…

デミス・ハサビス Demis Hassabis

デミス・ハサビス(Demis Hassabis 1976年7月27日 北ロンドン生まれ) はイギリス…

【書籍】化学における情報・AIの活用: 解析と合成を駆動する情報科学(CSJカレントレビュー: 50)

概要これまで化学は,解析と合成を両輪とし理論・実験を行き来しつつ発展し,さまざまな物質を提供…

有機合成化学協会誌2024年10月号:炭素-水素結合変換反応・脱芳香族的官能基化・ピクロトキサン型セスキテルペン・近赤外光反応制御・Benzimidazoline

有機合成化学協会が発行する有機合成化学協会誌、2024年10月号がオンライン公開されています。…

レジオネラ菌のはなし ~水回りにはご注意を~

Tshozoです。筆者が所属する組織の敷地に大きめの室外冷却器がありほぼ毎日かなりの音を立て…

Pdナノ粒子触媒による1,3-ジエン化合物の酸化的アミノ化反応の開発

第629回のスポットライトリサーチは、関西大学大学院 理工学研究科(触媒有機化学研究室)博士課程後期…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP